草庐IT

android - 处理搜索的最佳实践

全部标签

ruby-on-rails - 仅当可搜索字段发生变化时才使用太阳黑子索引

我们在最新项目中使用sunspot进行搜索。我们还使用devise并按如下方式为我们的用户模型编制索引:searchabledotext:fnametext:lnametext:emailtext:descriptiontext:twitter_usernameend使用此设置,除非solr正在运行,否则用户甚至无法登录。这意味着在每次保存用户模型时,都会与我们的solr服务器进行一些通信(重建索引?),即使可搜索字段都没有更改。这是正确的吗?我们还有许多其他模型正在被sunspot索引,这些模型具有经常更新的不可搜索字段。似乎sunspot正在为所有这些更新重新编制索引。有没有办法将

ruby - 针对每一行的多个(15+)正则表达式解析文本正文的最佳方法是什么?

我有一段文本需要扫描,每行至少包含2部分信息,有时包含4部分信息。问题是每一行可能是15-20种不同操作中的一种。在ruby​​中,当前代码看起来像这样:text.split("\n").eachdo|line|#around20times................expressions['actions'].eachdo|pat,reg|#around20times.................这显然是“问题所在”。通过将所有正则表达式合并为一个,我确实设法使其更快(在C++中提高了50%),但这仍然不是我需要的速度——我需要快速解析数千个这些文件!现在我将它们与正则表达式

ruby - Ruby 字符串字典中的快速模糊/近似搜索

我有一个包含50K到100K字符串的字典(最多可以包含50个以上的字符),我正在尝试查找给定字符串是否在具有“编辑”距离公差的字典中。(例如Levenshtein)。在进行搜索之前,我可以预先计算任何类型的数据结构。我的目标是尽快针对该字典运行数千个字符串并返回最近的邻居。如果有一个明显更快的算法,我会得到一个bool值来说明给定的是否在字典中为此,我首先尝试计算所有Levenshtein距离并取最小值,这显然非常慢。所以我尝试根据这篇文章实现一个LevenshteinTriehttp://stevehanov.ca/blog/index.php?id=114在这里查看我的重现基准的要

ruby-on-rails - 如何检查 Rails 3.x 中错误处理的特定救援条款?

我有以下代码:beginsite=RedirectFollower.new(url).resolverescue=>eputse.to_sreturnfalseend抛出如下错误:方案http不接受注册表部分:www.officedepot.com;方案http不接受注册表部分:ww2.google.com/something;操作超时-connect(2)如何为所有类似方案http不接受注册表部分的错误添加另一个救援?因为我想做的不仅仅是打印错误并在这种情况下返回false。 最佳答案 视情况而定。我看到三个异常描述不一样。异常类

Ruby,哪个异常最适合处理未设置的环境变量?

我编写的脚本在启动时运行,需要设置环境变量,但是Ruby的Exceptions,是最好的?我使用了LoadError,我只是想尽可能具有描述性并遵循适当的约定。其次,除了检查环境变量的长度外,我找不到其他方法来查看是否设置了环境变量,但这似乎不太优雅。beginraiseLoadErrorifENV['FOO'].to_s.length==0system"openhttp://example.com/"+ENV['FOO']rescueException=>eputs"=>#{e}FOOenvironmentvariablenotset"end 最佳答案

ruby-on-rails - 向我的网站添加完整网络搜索的最佳方式?

我需要在我的站点中添加完整的网络搜索。我需要像GoogleCustomSearch这样的东西,但没有广告,而且它必须是免费的。任何可以为我的站点编制索引并允许我进行搜索的Web服务或开源项目的推荐都会有所帮助。如果有帮助的话,我的网站是用ruby​​onrails制作的。我会将这个问题制作成社区维基,这样您就可以编辑我糟糕的英语。我想很多人都可以从这个问题中受益。 最佳答案 查看Lucene。它是一个开源搜索引擎,在您自己的网站上实现肯定会是一种有趣的学习体验。我相信它最初是由Excite人员设计的。

ruby-on-rails - Ruby on Rails 中模型设计的最佳实践

RoR教程为每个表设定了一个模型,以便ORM正常工作。我的数据库模式有大约70个表,在概念上分为5组功能(例如,任何给定的表都存在于一个且只有一个功能组中,并且不同组的表之间的关系被最小化。)那么:我应该为每个概念组设计一个模型,还是应该只拥有70个Rails模型并让分组“概念化”?谢谢! 最佳答案 很可能,您应该有70个模型。您可以为模型命名空间以拥有5个命名空间,每组一个,但这可能比它的值(value)更麻烦。更有可能的是,您在每个组中都有一些共同的功能。在那种情况下,我会为每个包含其行为的组创建一个模块,并将其包含在每个相关模

ruby - 搜索并替换为 ruby​​ 正则表达式

我在包含HTML的MySQL列中有一个文本blob字段。我必须更改一些标记,所以我想我会在ruby​​脚本中完成。Ruby在这里无关紧要,但很高兴看到它的答案。标记如下所示:foobarmeow我只需要更改第一个foo每个文本block到something_else同时保留字符串的其余部分。似乎无法使用Ruby获得正确的PCRE正则表达式。 最佳答案 #Theregexliteralsyntaxusing%r{...}allows/inyourregexwithoutescapingnew_str=my_str.sub(%r{[^}

ruby-on-rails - 可以在 Thread::handle_interrupt block 之外异步处理 ruby​​ 异常吗?

乍一看,我以为新的ruby​​2.0Thread.handle_interrupt会解决我所有的异步中断问题,但除非我弄错了,否则我无法让它做我想做的事(我的问题在最后和标题中)。从文档中,我可以看到如何避免在某个block中接收中断,将它们推迟到另一个block。这是一个示例程序:duration=ARGV.shift.to_it=Thread.newdoThread.handle_interrupt(RuntimeError=>:never)do5.times{putc'-';sleep1}Thread.handle_interrupt(RuntimeError=>:immedia

ruby - 如何测试 RSpec 中的信号处理,特别是 SIGTERM 的处理?

Heroku可能会出于各种原因向您的应用程序发送SIGTERM,因此我创建了一个处理程序来处理一些清理工作,以防发生这种情况。一些谷歌搜索没有给出任何关于如何在RSpec中测试它的答案或示例。这是基本代码:Signal.trap('TERM')docleanupenddefcleanupputs"doingsomecleanupstuff"...exitend当程序收到SIGTERM时,测试调用此清理方法的最佳方法是什么? 最佳答案 使用Process.kill'TERM',0将信号发送到RSpec并测试调用处理程序。确实,如果信号